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系列 决策 任务 中 的 策略 转换 : 
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摘 要 


已 有 大 量 研究 使 用 系列 决策 任务 探讨 了 各 类 决策 的 决策 
试 次 , 并 比较 对 应 的 计算 认 知 模型 拟 合 实证 数据 的 能 力 , 这些 研究 发 现 各 种 决策 任务 都 涉及 多 种 可 
但 是 ， 此 类 研究 的 一 个 共同 缺陷 在 于 忽视 了 个 体 在 任务 过 程 中 转换 决策 策略 的 可 
策略 和 启发 式 策略 间 转 换 的 针对 爱 荷 华 赌博 任务 的 计算 认 知 模型 ， 


策略 。 通 过 假定 个 体 采用 单一 策略 完成 所 有 任务 
能 的 决策 策略 。 
能 性 。 通 过 开发 允许 在 强化 学 习 
将 此 类 模型 同 单一 策略 模型 进行 对 比 , 研究 1 


提供 了 个 体 在 该 系列 决策 任务 中 会 改变 决策 策略 的 明确 证 据 。 研 究 2 则 发 现 ,， 随 着 试 次 数 的 增加 , 发生 策 略 转换 的 
可 能 性 也 会 上 升 。 这 些 结果 表明 , 为 了 正确 认识 各 种 决策 任务 的 决策 策略 , 需要 充分 考虑 在 系列 决策 任务 过 程 中 发 


生 策 略 转换 的 可 能 性 , 尤其 是 试 次 较 多 的 系列 任务 。 未 来 研究 可 以 探讨 策略 转换 的 多 种 可 


能 形式 ,以 及 导致 策略 转 


换 的 任务 和 个 体 因素 ,以 便 进一步 深化 对 于 系列 决策 任务 的 心理 机 制 的 认识 。 
关键 词 ”系列 决策 任务 , 爱 荷 华 赌博 任务 , 策略 转换 , 计算 认 知 建 模 ,强化 学 习 和 启发 式 策略 
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1 引言 


古人 云 “ 明 者 因 时 而 变 , 知 者 随 事 而 制 ”， 当 重 
复 面 对 任务 结构 相同 的 决策 ( 即 完成 系列 决策 任务 ) 
时 ， 人 们 所 使 用 的 决策 策略 不 是 一 成 不 变 的 。 大 量 
研究 表明 ,各 种 决策 任务 都 存在 多 种 不 同 的 决策 策 
略 。 例 如 ,针对 多 属性 决策 任务 , 存在 一 系列 不 同 
的 补偿 式 (选项 在 不 同属 性 上 的 优势 和 劣势 可 以 相 
互 抵消 ) 和 非 补 偿 式 策略 (选项 在 不 同属 性 上 的 优势 
和 劣势 不 可 相互 抵消 ， 例 如 ，Payne et al., 1988; 
Rieskamp & Otto, 2006; Walsh & Gluck, 2016)， 而 
面 对 风 险 决 策 任务 时 , 个 体 则 可 能 采取 基于 期 望 效 
用 或 类 似 评估 的 策略 (例如 ，Kahneman & Tversky, 
1979; Von Neumann & Morgenstern, 1944) 或 者 更 为 
简单 的 启发 式 策略 (例如 , Brandstätter et al., 2006). 
此 外 ,研究 者 还 对 信息 环境 、 任 务 要 求 以 及 个 体 差 
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异 等 因素 如 何 影响 个 体 的 策略 选择 进行 了 探索 ( 例 
如 , Bergert & Nosofsky, 2007; Pachur & Galesic, 2013), 
并 且 发 现 ,任务 环境 或 者 要 求 的 变化 可 能 会 带 来 相 
应 的 决策 策略 的 转换 (例如 , Bröder & Schiffer, 2006; 
Lee et al., 2014)。 

除了 由 任务 环境 和 要 求 的 变化 所 导致 的 策略 
转换 以 外 ， 人 们 是 否 还 可 能 在 相对 稳定 的 任务 环境 
和 要 求 下 ， 由 于 自我 调整 、 适 应 或 者 内 在 的 探索 动 
机 而 发 生 策 略 转换 ?在 绝 大 多 数 有 关 决 策 策略 的 
实证 研究 中 , 被 试 都 需要 在 相同 的 任务 结构 下 完成 
一 系列 决策 试 次 ,以 便 研 究 者 能 够 依托 足够 多 的 信 
息 , 来 推断 被 试 的 决策 策略 。 虽 然 过 往 研 究 已 经 探 
讨 了 面 对 特 定 决 策 任务 时 个 体 所 使 用 的 策略 的 多 
样 性 ， 以 及 影响 策略 选择 的 可 能 因素 , 却 鲜 有 研究 
考察 , 在 面 对 一 个 相对 稳定 的 系列 决策 任务 时 ,个 
体 的 决策 策略 发 生 转换 的 可 能 性 。 如 果 这 种 可 能 性 


: 本 文 探讨 的 系列 决策 任务 有 别 于 序列 决策 任务 ， 后 者 一 般 是 指 后 
决策 存在 明显 的 动态 依存 性 的 决策 任务 。 


后 续 决 策 的 方案 集合 取决 于 之 前 的 决策 及 其 结果 ， 


即时 间 上 相 邻 的 
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的 确 存 在 , 那么 以 往 有 关 决 策 策略 的 研究 ， 就 会 因 
为 忽视 这 一 可 能 性 而 导致 错误 的 结论 。 为 了 更 好 地 
探 明 个 体 在 面 对 各 种 决策 任务 时 的 决策 策略 ， 首 先 
需要 回答 的 问题 是 , 在 任务 环境 和 要 求 相对 稳定 的 
系列 决策 中 ,是 否 的 确 会 发 生 策 略 转换 。 本 文 将 以 
爱 荷 华 赌博 任务 这 一 典型 的 系列 决策 任务 为 例 ， 探 
讨 这 一 重要 的 理论 和 实践 问题 。 

爱人 答 华 赌博 任务 (lIowa Gambling Task, IGT) 是 
一 项 基于 经 验 的 模拟 决策 任务 , 它 最 初 是 为 了 考察 
腹 内 侧 前 额 叶 损伤 患者 在 应 对 不 确定 的 现实 情境 
时 的 决策 缺陷 而 提出 的 (Bechara et al., 1994)。 该 任 
务 包含 4 个 牌 堆 ( 分 别 标记 为 A, B,C, D)， 被 试 需要 
多 次 在 这 些 牌 堆 间 做 出 选择 。 每 次 选择 某 一 牌 堆 之 
后 ， 都 会 抽取 并 翻转 其 最 上 方 的 一 张 牌 ， 并 根据 牌 
面 信息 给 予 被 试 一 定 的 奖励 。 但 是 ， 有 时 选择 某 一 
牌 堆 也 会 同时 给 被 试 带 来 损失 。 在 任务 开始 之 前 ， 
被 试 并 不 知道 每 个 牌 堆 的 盘 亏 规律 以 及 总 试 次 数 ， 
而 他 们 的 目标 则 是 通过 他 们 的 选择 获得 尽 可 能 高 
的 总 回报 。 因 此 , 被 试 需要 通过 不 断 选 择 各 个 牌 堆 
来 学 习 每 个 牌 堆 的 便 亏 规律 并 采取 特定 策略 来 完 
成 这 一 任务 。 目 前 IGT 已 被 广泛 用 于 识别 各 种 临床 
人 和 群 的 决策 缺陷 , 包括 脑 损 伤 人 群 (Hochman et al., 
2010)、 药 物 滥用 人 群 (Ahn et al., 2014; Bechara & 
Damasio, 2002; Bechara et al., 2001)、 神 经 疾病 人 群 
(Stout et al., 2001) 以 及 精神 障碍 人 群 ( 李 荤 等 , 2019; 
徐 四 华 , 2012) 等 。 

除了 被 用 于 考察 临床 人 群 的 决策 缺陷 , IGT 还 
被 用 来 探究 正常 和 临床 人 群 在 面 对 不 确定 情境 时 


程 的 不 同 数学 形式 , 并 提出 了 预期 效 价 学 习 (Prospect- 
Valence Learning, PVL) 模 型 。 该 模型 假定 个 体会 使 
用 预期 效用 (Prospect Utility, PU) 函 数 (Kahneman & 
Tversky，1979) 对 选择 的 净 结 果 ( 即 奖励 以 及 可 能 后 
时 出 现 的 损失 之 和 ) 进 行 评估 , 使 用 Erev 和 Roth 
(1998) 提 出 的 衰减 强化 学 习 (Decay-Reinforcement 
Learning，DRL) 规 则 更 新 预期 效 价 ， 并 且 使 用 不 随 
试 次 变化 的 选择 (Trial-Independent Choice，TIC) 规 
则 (Yechiam & Ert, 2007) 做 出 反应 ,更 为 近期 的 采用 
系统 化 模型 比较 方法 的 研究 表明 (Dai et al., 2015), 
个 体 在 对 结果 进行 评估 时 , 更 有 可 能 会 对 同时 出 现 
的 奖励 和 损失 首先 分 别 按 照 预 期 效用 防 数 进行 评 
估 ， 然 后 再 将 评估 结果 加 以 整合 。 对 应 的 模型 被 称 
为 第 2 类 预期 效 价 学 习 (Prospect-Valence Learning 2, 
PVL2) 模 型 。 

在 有 关 IGT 的 启发 式 模 型 中 ， 最 有 代表 性 且 拟 
合 实证 数据 表现 最 好 的 是 赢 留 输 走 (Win-Stay-Lose- 
Shift, WSLS) 模 型 (Worthy et al., 2012)。 该 模型 假设 ， 
人 们 的 每 次 选择 仅 取决 于 上 一 次 选择 的 牌 堆 以 及 
所 得 的 结果 ， 而 与 更 早 之 前 的 选择 及 其 结果 无 关 。 
因此 ， 相 比 于 考虑 之 前 所 有 试 次 的 选择 及 对 应 结果 
的 强化 学 习 模 型 ，WSLS 模型 假设 的 心理 机 制 更 为 
简单 。 具 体 而 言 ,该 模型 假定 个 体 继续 选择 相同 牌 
堆 的 概率 , 受 当前 选择 该 牌 堆 的 结果 而 定 。 如 果 当 
前 选择 的 净 结 果 非 负 ( 即 赢 )， 则 有 较 大 可 能 继续 选 
择 相 同 牌 堆 ,， 反之 ( 即 输 )， 则 有 和 较 大 可 能 下 一 试 次 
转 而 选择 不 同 的 牌 堆 。 

尽管 关于 IGT 的 决策 策略 已 经 有 了 丰富 的 研 


的 决策 策略 。 为 此 , 研究 者 们 提出 了 对 应 不 同 策 略 
的 一 系列 计算 认 知 模型 这些 模 型 大 致 可 分 为 强化 
学 习 模 型 和 启发 式 模 型 两 类 。 强 化 学 习 模 型 假设 
IGT 包含 三 个 过 程 : 涉及 动机 的 对 每 次 选择 结果 的 
评估 过 程 ,涉及 认 知 的 对 牌 堆 期 望 效 价 的 更 新 过 程 ， 
以 及 涉及 反应 的 概率 化 选择 过 程 。Busemeyer 和 
Stout (2002) 提 出 了 第 一 个 针对 IGT 的 强化 学 习 模 
型 一 一 期 望 效 价 学 习 (Expectancy-Valence Learning, 
EVL) 模 型 。 该 模型 假定 个 体 使 用 期 望 效 用 (Expectancy 
Utility, EU) 函数 来 评估 每 次 选择 结果 的 效用 (Ahn 
et al.，2008), 使 用 差异 学 习 (Delta-Learning, DEL) 
规则 来 更 新 每 个 牌 堆 的 期 望 效 价 (Rescorla & Wagner, 
1972)， 并 使 用 依赖 于 试 次 的 选择 (Trial-Dependent 
Choice，TDC) 规 则 来 指导 下 一 试 次 的 选择 (Luce， 
1959)。 在 EVL 模型 的 基础 上 , Ahn 等 人 (2008) 进 一 
步 探 索 了 强化 学 习 模 型 涉及 的 三 个 过 程 中 每 个 过 


FE BAR, 但 很 少 有 研究 考虑 个 体 在 完成 IJGT 过 程 中 
发 生 策略 转换 这 一 可 能 。 Busemeyer 和 Stout (2002) 
曾 提出 过 一 个 策略 转换 启发 式 选择 (Strategy-Switching 
Heuristic Choice) 模 型 。 但 是 , 该 模型 所 谓 的 “策略 
转换 ” 并非 是 指 决策 策略 的 本 质变 化 ， 而 是 指 随 
着 个 体 由 于 选择 不 利 牌 堆 ( 即 A 或 了 B 牌 堆 ) 遭 受 越 来 
越 多 的 损失 ,其 选择 概率 在 不 利 牌 堆 和 有 利 牌 堆 
( 即 C 或 D 牌 堆 ) 之 间 重 新 分 配 的 过 程 。 此 外 ,也 有 
研究 者 提出 了 将 强化 学 习 和 启发 式 策略 结合 在 一 
起 的 计算 认 知 模型 。 例 如 ，Worthy 等 人 (2013) 提 出 
了 效 价 附加 坚持 (Valence-Plus-Perseverance，VPP) 
模型 。 该 模型 认为 , ZEIGT 的 每 一 个 试 次 中 ， 人 们 
都 会 综合 考虑 各 个 牌 堆 的 期 望 效 价 以 及 前 一 试 次 
的 选择 及 其 结果 ， 再 决定 当前 试 次 的 选择 。 虽 然 该 
模型 同时 包含 强化 学 习 和 启发 式 策略 成 分 且 相 比 
F EVL, PVL 以 及 WSLS 模型 ， 该 模型 在 拟 合 实证 
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数据 时 有 较 好 的 表现 ,但 它 仍 然 假 定 个 体会 使 用 单 
一 的 , 虽然 更 为 复杂 的 混合 策略 来 完成 IGT 中 每 个 
试 次 的 选择 。 

综 上 所 述 ， 有关 IGT 的 决策 策略 研究 ， 尚 未 考 
察 在 任务 过 程 中 发 生 策略 转换 这 一 可 能 。 如 果 个 体 
的 确 会 在 任务 过 程 中 因为 各 种 原因 转变 决策 策略 ， 
那么 以 往 仅仅 比较 单一 策略 模型 的 研究 ， 就 可 能 得 
出 关于 个 体 策 略 选择 的 错误 认识 。 此 外 , 那些 根据 
单一 策略 模型 的 参数 估计 , 来 推断 不 同人 群 决策 差 
异 背 后 的 心理 机 制 的 研究 (例如 ，Ahn et al., 2014; 
Yechiam et al.，2005), 也 可 能 会 产生 有 偏 的 估计 ， 
进而 导致 对 人 群 差异 的 错误 解读 。 本 研究 将 通过 开 
发 允许 策略 转换 的 模型 并 将 其 与 传统 的 单一 策略 
模型 进行 比较 , 来 回答 在 IGT 中 是 否 存在 策略 转换 
这 一 问题 ， 以 期 为 得 出 有 关 IGT 中 的 决策 策略 以 及 
不 同人 群 差异 的 更 为 可 信 的 结论 提供 依据 ， 也 为 在 
更 大 范围 内 探讨 决策 策略 转换 这 一 重要 的 理论 和 
实践 问题 提供 借鉴 。 


2 人 研究 1:IGT 策略 转换 模型 的 提出 
和 检验 


21 方法 
2.1.1 IGT 简介 

如 上 所 述 , IGT 包含 4 个 牌 堆 (分 别 标记 为 A、 
B, C. D), 在 每 个 试 次 中 被 试 需要 选择 一 个 牌 堆 ， 
并 根据 其 最 上 方 的 牌 呈 现 的 信息 获得 一 定 的 奖励 ， 
并 有 可 能 同时 遭受 一 些 损失 。 被 试 的 目标 是 在 总 试 
次 数 未 知 的 情况 下 , 使 总 回报 最 大 化 。 例 如 ,在 
Bechara 等 人 (1994) 最 早 的 IGT 研究 中 包含 了 (被 试 
未 知 的 )100 个 试 次 , 并 且 采 用 了 如 表 1 所 示 的 支付 
方案 。 具体 而 言 , 被 试 每 次 选择 A 或 B 牌 堆 ， 都 会 
获得 100 美元 的 收益 。 但 是 , 每 选择 10 次 A 牌 堆 ， 
被 试 都 会 遭受 5 次 损失 , 金额 从 小 到 大 分 别 为 150 
美元 、200 美元 .250 美元 、300 美元 和 350 美元 , H. 
这 5 次 损失 在 每 10 次 选择 中 出 现 的 具体 位 置 都 会 
有 所 变化 。 类 似 的 ,被 试 每 选择 10 次 B 牌 堆 ， 都 会 
遭受 1 次 金额 为 1250 美元 的 损失 ,上 且 每 10 次 选择 
中 出 现 损 失 的 位 置 也 各 不 相同 。 对 于 C 或 者 D 牌 
堆 ， 每 次 选择 都 会 带 来 50 美元 的 收益 。 然 而 ， 每 选 
PE 10 次 C 牌 堆 ， 都 会 遭受 5 次 总 额 为 250 美元 的 
损失 ,每 选择 10 次 D 牌 堆 ， 则 会 遭受 1 次 250 美元 
的 损失 , ELBE 10 次 选择 C D 牌 堆 遭受 损失 试 次 
的 位 置 也 会 有 所 不 同 。 后 续 研 究 使 用 了 相同 或 者 类 
似 的 任务 设置 ， 主 要 的 调整 发 生 在 试 次 数 ， 以 及 是 


否 使 用 真实 回报 两 方面 。 当 使 用 真实 回报 ( 即 按照 
被 试 最 后 的 总 回报 支付 酬金 ) 时 ， 出 于 控制 实验 经 
费 的 目的 , 一 般 会 将 Bechara 等 人 最 初 的 支付 方案 
中 的 各 种 结果 金额 都 缩减 100 倍 ( 例 如 ，Dai et al., 
2015)。 无 论 采 取 何 种 支付 方案 ,所 有 类 型 的 IGT 
研究 都 满足 以 下 三 点 : DA 和 B 牌 堆 每 次 选择 都 有 
较 高 的 收益 , 但 总 损失 也 较 大 ,因此 长 期 而 言 是 不 
利 的 ， 即 总 回报 为 负 ; 2)C 和 D 牌 堆 每 次 选择 的 收 
益 较 低 ， 但 总 损失 较 小 ,因此 长 期 而 言 是 有 利 的 ， 
即 总 回报 为 正 ; 3)A 和 C 牌 堆 相 比 于 B A D 有 牌 堆 会 
出 现 更 多 次 的 损失 。 


表 1 Bechara 等 人 (1994) 使 用 的 IGT 支付 方案 


牌 堆 A B C D 
每 次 选择 的 收益 100 100 50 50 
每 10 次 选择 出 现 损失 的 次 数 5 1 5 1 
150 -1250 -25 -250 
-200 -50 
可 能 损失 的 金额 -250 -75 
-300 
-350 
10 次 选择 的 总 回报 -250 -250 250 250 


2.1.2 单一 策略 模型 

为 了 给 探究 IGT 中 的 策略 转换 提供 合适 的 对 
照 模型 ， 本 研究 考虑 了 已 有 文献 中 的 三 大 类 单一 策 
略 模型 ， 即 强化 学 习 模型 ， 启 发 式 模型 以 及 混合 模 
型 ， 并 以 PVL2 模型 ，WSLS 模型 和 VPP 模型 作为 
各 类 模型 的 代表 。 这 些 模型 在 以 往 的 研究 中 都 有 较 
好 的 表现 ， 因 此 如 果 新 的 允许 策略 转换 的 模型 能 
比 它们 有 更 好 的 表现 ， 则 能 为 IGT 中 存在 策略 转换 
提供 支持 。 以 下 将 介绍 这 三 个 计算 认 知 模型 的 具体 
数学 形式 。 

针对 IGT 的 强化 学 习 模 型 假定 人 们 通过 结 
评估 、 期 望 (或 预期 ) 效 价 更 新 和 概率 化 选择 三 个 过 
程 来 完成 该 任务 。 根 据 PVL2 模型 (Dai et al., 2015), 
人 们 在 选择 某 一 牌 堆 之 后 , 会 针对 当前 选择 获得 的 
收益 和 可 能 的 损失 , 使 用 预期 理论 的 价值 函数 分 别 
进行 评估 ， 然 后 再 做 汇总 。 其 对 应 的 效用 函数 被 称 
为 第 2 类 预期 效用 (Prospect Utility 2, PU2) 函 数 ， 效 
用 评估 的 具体 形式 如 下 : 

u(t) =[win(t)}" —Y[| loss(t) IT (1) 

HP, wint) 和 loss(t) 分 别 代 表 在 试 次 t 获得 
的 收益 及 可 能 同时 出 现 的 损失 金额 ，u(t) 代表 试 次 
1 的 汇总 效用 评估 。o 是 形状 参数 ,用 于 衡量 被 试 感 
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受到 的 效用 对 于 客观 价值 的 敏感 性 ， 取 值 范围 在 0 
到 1 之 间 ，y 则 代表 预期 理论 中 的 损失 厌恶 参数 ， 
取 值 范围 在 0 到 5 之 间 。 

在 完成 了 结果 评估 之 后 , 根据 PVL2 模型 , 个 
体会 使 用 衰减 强化 学 习 规则 对 各 有 牌 堆 的 预期 效 价 
进行 更 新 , 具体 形式 如 下 : 

E,(t)=A-E,(t-1)+8,(0)-u@) (2) 

其 中 ，Ej() 代 表 牌 堆 j 在 第 上 个 试 次 完成 后 的 
预期 效 价 G = 1, 2,3,4, 分 别 对 应 于 A, B, C, D 四 个 
WHE), 4 是 记忆 衰减 参数 ， 取 值 范 围 是 0 到 1, A 
越 大 ， 表 示 记 忆 豪 减 对 于 预期 效 价 的 影响 越 小 ， 
SO 是 一 个 哑 变 量 ， 当 被 试 在 试 次 1 选择 了 牌 堆 ) 
时 为 1, 否则 为 0。 换 而 言 之 , 被 选择 的 牌 堆 的 预期 
效 价 更 新 既 涉 及 记忆 衰减 ,又 涉及 当前 效用 评估 ， 
而 未 选择 牌 堆 的 预期 效 价 更 新 则 只 存在 记忆 衰减 

最 后 ,PVL2 模型 假定 , 个 体会 依据 各 牌 堆 的 预 
期 效 价 , 使 用 以 下 函数 确定 下 一 次 选择 各 牌 堆 的 概 
率 并 相应 地 做 出 随机 选择 (Sutton & Barto, 1998): 


EO 
Pr DG+) = fl=4 (3) 


D PORO 


$= 
其 中 ,等 式 左 侧 的 Pr[DU+D = 刀 表示 被 试 在 
试 次 1+1 选 择 牌 堆 7 的 概率 ， 而 等 式 右 侧 的 分 母 是 
一 个 归 一 化 因子 ， 可 以 确保 预测 的 各 牌 堆 的 选择 概 
率 之 和 为 1o OO 是 选择 函数 的 灵敏 度 参 数 ，6() 越 
大 ， 表 明 被 试 的 选择 越 取 决 于 牌 堆 的 预期 效 价 。 根 
据 PVL2 模型 ，6(0) 的 取 值 不 随 试 次 的 变化 而 变化 ， 
即 OH 是 z 的 常 函 数 ， 其 形式 为 : 
Q(t) =0=3°-1 (4) 
其 中 , c 是 自由 参数 ， 取 值 范 围 为 0 到 5。c 越 
K, 0 越 大 ,代表 被 试 更 有 可 能 选择 预期 效 价 较 高 
的 牌 堆 。 总 的 来 说 , PVL2 模型 包含 了 效用 评估 、 预 
期 效 价 更 新 和 概率 化 选择 三 个 过 程 ， 一 共 包 含 
ouy,4 和 c 四 个 自由 参数 。 
作为 启发 式 模型 的 代表 ，WSLS 模型 假定 的 决 
策 策 略 比 PVL2 模型 假定 的 策略 明显 更 为 简单 。 根 
据 该 模型 , 个 体 只 会 根据 上 一 次 选择 的 牌 堆 及 其 净 
结果 ( 即 收益 和 损失 的 总 和 ), 来 概率 性 地 决定 下 一 
次 的 选择 。 该 模型 有 两 个 参数 ,第 一 个 参数 代表 上 
一 次 选择 的 牌 堆 得 到 的 净 结 果 大 于 等 于 0 时 , 个 体 
继续 选择 该 牌 堆 的 概率 ， 即 
Pr(stay|win) = Pr[D (Dlchoice, 1 = D; & x(t-1) > 0] (5) 


其 中 choice, =D, 表示 在 1-1 试 次 选择 了 j 
RHE, x(t—-1) 20 表示 该 选择 带 来 的 净 结 果 非 负 ， 
而 D O 则 表示 在 t 试 次 继续 选择 j 牌 堆 。 该 模型 的 
第 二 个 参数 代表 上 一 次 选择 的 牌 堆 净 结果 为 负 时 ， 
被 试 转 而 选择 其 他 牌 堆 的 概率 ， 即 

Pr(shift\loss) =1-—Pr[D;(Dlehoice, il = 
Di&xd-D<0] (6) 

其 中 符号 的 含义 与 公式 5 相同 。 该 模型 进一步 
假定 ， 当 在 某 一 试 次 选择 不 同 于 上 一 试 次 的 其 他 牌 
堆 时 ， 所 有 可 能 牌 堆 的 选择 概率 相同 。 因 此 , 为 了 
保证 选择 所 有 上牌 堆 的 总 概率 为 1， 当 试 次 1-1 的 净 
结果 非 负 时 , 在 试 次 :选择 任意 一 个 其 他 牌 堆 的 概 
2 py EC WED, 当 试 次 1-1 的 净 结 果 为 负 时 ， 
在 试 次 上 继续 选择 相同 牌 堆 的 概率 为 
1—Pr(shifilloss) ， 选 择 任意 一 个 其 他 牌 堆 的 概率 则 
、 Pr(shift | loss) 

A 

除了 强化 学 习 模型 和 启发 式 模型 , Worthy 等 人 
(2013) 提 出 的 混合 策略 VPP 模型 也 有 很 好 的 表现 。 
Worthy 等 人 认为 , 使 用 衰减 强化 规则 的 强化 学 习 
模型 混淆 了 坚持 选择 同一 牌 堆 的 倾向 和 选择 预期 
效 价 最 高 的 牌 堆 的 倾向 。 因 此 ,他 们 分 离 了 这 两 种 
倾向 ,， 并 提出 了 VPP 模型 。 根 据 该 模型 , 个 体 一 方 
面 会 使 用 PU 函数 来 对 某 次 选择 结果 进行 效用 评估 ， 


并 使 用 差异 学 习 规 则 更 新 牌 堆 的 预期 效 价 ， 其 具体 
形式 如 下 : 
u(t ae : (7) 
-A| x(t) |* 4x(t) <0 


E,(t\)=E,t-)+4-8,()-W)-E,(t-D] (8) 
其 中 , (ORR SATA ERA a a, F 
他 符号 的 含义 同上 文 。 
另 一 方面 ,个体 还 会 根据 之 前 试 次 是 和 否 选择 了 
牌 堆 j 以 及 选择 牌 堆 j 所 得 净 收 益 是 否 非 负 来 确定 
当前 试 次 坚持 选择 牌 堆 7 的 倾向 ,， 具体 形式 如 下 : 


ka 4x(t) > 0 
(7) = aie (9) 
k* P (t-11) + Ereg “4x(t) <0 


其 中 P O 代表 在 试 次 1 坚持 选择 牌 堆 j 的 倾向 
是 一 个 取 值 范围 在 0 到 1 之 间 的 衰减 参数 ， 其 仿 
义 类 似 于 公式 2 中 的 参数 4,ejos 和 Gos 是 两 个 自由 
参数 ， 代 表 一 个 牌 堆 被 选择 后 ,由 其 净 结 果 决 定 的 
坚持 倾向 的 改变 量 ,范围 都 在 -1 到 1 之 间 。 最 终 ， 
每 个 牌 堆 的 价值 (V(t) ， 即 综合 评价 ) 是 其 预期 效 价 
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和 坚持 倾向 的 加 权 平 均 ， 具 体形 式 如 下 : 
ViO=we, E; O+- w) PO (10) 
其 中 ， We, 是 权重 参数 ， 取 值 范 围 在 0 到 1 之 间 。 
最 后 ， 和 PVL2 模型 类 似 ，VPP 模型 假设 被 斌 
会 根据 牌 堆 的 价值 确定 下 一 次 选择 各 牌 堆 的 概率 
并 相应 地 做 出 随机 选择 ,具体 规则 如 下 : 


OVO 
Pr[D(t +1) = fl= 


Doone 


kal 
其 中 , 灵敏 度 参数 Ot) 的 计算 使 用 的 是 不 随 
试 次 变化 的 规则 ， 即 公式 4。VPP 模型 共 包含 八 个 
自由 参数 ， 即 涉及 效用 评估 和 更 新 的 a, 和 ,4， 涉及 
坚持 程度 的 所 exe ， 以 及 涉及 综合 评价 的 ws 
和 涉及 选择 反应 的 c。 
2.1.3 ”策略 转换 模型 


(11) 


在 整个 任务 过 程 中 , 个 体 可 能 由 于 各 种 原因 发 生 策 
略 转换 。 在 本 研究 中 , 我们 假定 可 能 存在 两 种 转换 ， 
一 种 是 在 任务 开始 阶段 由 于 缺乏 信息 而 使 用 对 信 
息 依 赖 度 较 低 的 启发 式 策略 ， 并 在 对 各 牌 堆 有 了 更 
多 了 解 之 后 ， 转 而 使 用 更 为 复杂 更 为 精细 的 强化 学 
习 策 略 。 另 一 种 则 是 在 初始 阶段 就 使 用 强化 学 习 策 
略 ， 并 随 着 任务 的 进行 ,因为 疲劳 、 倦 仍 或 者 降低 
认 知 负荷 的 需求 ， 转 而 采用 启发 式 策 略 。 从 建 模 角 
BE, 鉴于 PVL2 模型 在 强化 学 习 模 型 ， 以 及 WSLS 
模型 在 启发 式 模 型 中 的 优势 地 位 ,本 研究 将 分 别 以 
这 两 个 模型 来 表达 可 能 的 强化 学 习 策 略 和 启发 式 
策略 ， 并 由 此 探讨 个 体 在 IGT 中 发 生 策 略 转换 的 可 
能 性 。 

具体 而 言 , 我们 开发 了 一 个 允许 发 生 一 次 策略 
转换 (Switching-Strategy-Once, SSO) 的 模型 ,该 模型 
假设 个 体 在 完成 IGT 的 过 程 中 , 会 在 启发 式 策略 和 
强化 学 习 策略 之 间 进 行 一 次 转换 ， 且 个 体 在 使 用 启 
发 式 或 者 强化 学 习 策 略 完成 IGT 时 所 使 用 的 具体 
计算 认 知 机 制 ， 和 对 应 的 WSLS 或 者 PVL2 模型 所 
假定 的 机 制 相同 。 除 了 WSLS 模型 和 PVL2 模型 涉 
及 的 参数 以 外 , 该 模型 还 包含 两 个 新 的 参数 ,分别 
代表 发 生 策略 转换 的 节点 试 次 , ICE sp (BI Switching 
Point)， 以 及 策略 转换 的 类 型 , 记 作 st (Bll Switching 
Type). st=1 代 表 个 体 在 完成 IGT 的 过 程 中 先 使 用 
了 强化 学 习 策 略 ， 之 后 转 而 使 用 启发 式 策略 ， 而 
st =2 则 代表 相反 的 策略 转换 过 程 。 因 此 ,该 模型 
共有 8 个 参数 ， 即 涉及 强化 学 习 策 略 的 a,y, 4 和 c， 


1 于 IGT 一 般 包 含 多 达 100 个 甚至 更 多 的 试 次 ， 


涉及 启发 式 策略 的 Pr(staylwin) 和 Pr(shif | loss), #8 
换 节 点 参数 sp， 以 及 转换 类 型 参数 sto HTAR 
略 转换 节点 位 于 整个 任务 的 开始 或 结尾 阶段 时 ， 相 
应 的 策略 转换 模型 和 对 应 的 单一 策略 模型 可 能 过 
于 类 似 ， 难 以 分 辨 。 因 此, 在 本 研究 中 , 我 们 将 sp 
的 范围 限定 在 第 21 个 试 次 到 倒数 第 21 个 试 次 之 间 。 
2.1.4 数据 

为 了 系统 比较 策略 转换 模型 和 单一 策略 模型 
拟 合 实证 数据 的 能 力 , 我们 选取 了 以 往 采 用 IGT 的 
研究 中 具有 代表 性 的 一 系列 数据 集 作 为 模型 拟 合 
对 象 (Steingroever et al., 2015)。 具 体 而 言 ， 这些 数 
据 出 自 10 项 研究 ,涵盖 了 不 同年 龄 范围 的 共 617 
名 健康 被 试 ， 且 IGT 的 试 次 数 包含 95, 100 和 150 
三 种 情况 。 所 有 研究 中 的 IGT 都 在 计算 机 上 完成 ， 
且 支 付 方案 与 表 1 所 示 的 Bechara 等 人 (1994) 所 用 
的 方案 相同 或 类 似 。 所 涉及 的 各 项 研究 的 基本 信息 
参见 Steingroever 等 人 的 表 1。 
2.1.5 ”模型 拟 合 和 比较 方法 

本 研究 所 考察 的 每 个 计算 认 知 模型 ( 即 WSLS, 
PVL2, VPP 和 SSO), 都 可 以 根据 被 试 之 前 的 选择 
以 及 所 得 结果 ， 预 测 下 一 试 次 每 个 牌 堆 被 选择 的 概 
率 ( 即 一 步 向 前 预测 , Ahn et al., 2008)。 因 此 , 我 们 
首先 使 用 极 大 似 然 估计 法 (Maximum-Likelihood 
Estimation，MLE)， 用 每 个 模型 去 拟 合 个 体 被 试 的 
选择 数据 ， 即 找到 每 个 模型 下 ， 可 以 使 得 实际 选择 
数据 出 现 可 能 性 最 大 化 的 参数 取 值 组 合 ， 并 以 相应 
的 观测 数据 的 预测 出 现 概率 ， 作 为 模型 拟 合 表现 的 
初步 指标 。 具 体 而 言 ， 在 特定 模型 参数 取 值 下 的 似 
然 值 被 定义 为 该 取 值 下 , 模型 预测 的 个 体 被 试 的 选 
择 序 列 的 发 生 概率 ， 而 对 数 似 然 值 Log-Likelihood， 
LL) 则 被 定义 为 

LL = SY me j(t +1) x8 (t+) 


t=1 j=l 
其 中 , n 表示 总 试 次 数 ，PrCDid+ID) 表示 模型 
基于 被 试 前 t 次 选择 及 其 结果 , 所 预测 的 第 t+1 试 
次 选择 牌 堆 jj 的 概率 。5,(1+1) 是 一 个 旺 变量 ， 如 果 
被 试 在 t+1 试 次 选择 了 牌 堆 j, 则 6;(t+1)=1, 否则 
5j(t+1)=0。 这 意味 着 , 每 个 试 次 只 有 实际 被 选择 
的 牌 堆 的 预测 概率 会 被 纳入 对 数 似 然 值 的 计算 之 
中 ,然后 , 我 们 使 用 MATLAB 中 的 PSO 算法 (Particle 
Swarm Optimization, Clerc, 2010) 来 寻找 每 个 模型 
对 数 似 然 值 的 最 大 值 ， 并 求 得 对 应 的 参数 估计 值 。 
一 般 而 言 ， 更 为 复杂 的 模型 会 有 更 好 的 拟 合 表 


(12) 
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现 。 由 于 上 述 模型 的 参数 个 数 不 尽 相同 , 它们 的 复 
杂 程 度 也 不 尽 相 同 。 因 此 , 我 们 使 用 包含 二 阶 偏差 
修正 的 赤 池 信息 准则 (Akaike Information Criterion 
with second-order bias correction, AICc; Akaike, 
1974; Sugiura，1978) 和 贝 叶 斯 信息 准则 (Bayesian 
Information Criterion, BIC; Schwarz, 1978) 这 两 种 常 
用 的 适用 于 极 大 似 然 估计 的 指标 , 来 综合 考量 模型 
的 拟 合 情 况 和 复杂 程度 ， 并 以 相应 的 准则 分 数 来 评 
价 每 个 模型 的 表现 并 进行 模型 选择 ,具体 计算 方式 
如 下 : 


Wie = Si L (13) 
n—k—l 
BIC = -2LLy, + kx|n(n) (14) 


其 中 ,代表 模型 的 自由 参数 个 数 , n 为 需要 拟 
合 的 数据 点 个 数 ( 即 总 试 次 数 -1)， 而 LLy 则 是 指 模 
型 的 极 大 对 数 似 然 值 。AICc (或 BIC) 的 值 越 小 , 表 
示 模 型 表现 越 好 (Broomell et al., 2011). * 
2.1.6 ”模型 复原 测试 
1 于 AICc 和 BIC 对 于 拟 合 表 现 所 做 的 调整 存 
在 程度 上 的 差异 ， 且 一 般 而 言 BIC 的 惩罚 程度 ( 即 


jerin(m) ) 要 高 于 AICc 的 惩罚 程度 ( 即 2+ Ey, 


所 以 使 用 这 两 种 指标 可 能 会 导致 不 同 的 模型 选择 
结果 。 因 此 , 我 们 还 进行 了 模型 复原 测试 ， 以 便 确 
定 哪 一 指标 更 适用 于 针对 观测 数据 进行 模型 选择 
(Wagenmakers et al., 2004; Worthy et al., 2012)。 具 
体 而 言 ， 该 测试 有 以 下 两 个 主要 步骤 : 第 一 , 针对 
每 个 模型 ， 使 用 拟 合 观测 数据 得 到 的 最 优 参数 取 值 
产生 模拟 的 被 试 数据 。 在 模拟 过 程 中 , 不 会 使 用 到 
被 试 实际 的 选择 及 其 结果 ， 而 是 根据 模型 预测 的 选 
择 概率 以 及 IGT 本身 的 设 定 , 来 随机 地 产生 模拟 数 
据 ; 第 二 ,， 用 不 同 模型 拟 合 每 种 模型 产生 的 模拟 被 
试 数据 ， 并 采用 特定 模型 选择 指标 来 比较 模型 表 
现 。 如 果 使 用 某 种 模型 选择 指标 时 ， 每 个 模型 都 只 
针对 自身 产生 的 数据 有 相对 较 好 的 表现 , 那么 说 明 
该 选择 指标 下 ,模型 的 区 分 度 较 大 。 相 反 ， 如 果 使 
用 某 种 模型 选择 指标 时 ， 某 些 模 型 针对 别 的 模型 产 
生 的 数据 也 会 有 相对 较 好 的 表现 ， 则 说 明 该 选择 指 
标 下 , 模型 的 区 分 度 不 大 。 换 而 言 之 , 这样 的 选择 


2 当 样 本 量 与 模型 参数 个 数 的 比值 较 小 ( 即 样本 量 /参数 个 数 
<40) 时 ,使 用 包含 二 阶 偏差 修正 的 赤 池 信息 准则 (AICc) 能 够 弥 
补 使 用 AIC 可 能 导致 的 过 拟 合 缺陷 (Burnham & Anderson, 
2004)。 因 此 , 在 本 文中 我 们 使 用 AICc 而 非 AIC 作为 模型 评估 
的 一 个 指标 。 


指标 不 能 较为 准确 地 确认 出 产生 数据 的 真实 模型 ， 
因此 也 就 不 适用 于 根据 观测 数据 进行 模型 选择 。 

在 本 研究 中 ,我们 对 数据 集中 的 617 名 被 试 的 
观测 数据 进行 了 模型 拟 合 ， 从 而 得 到 了 每 个 被 试 在 
每 个 模型 下 的 最 优 拟 合 参数 取 值 。 然 后 ， 对 于 每 个 
模型 ， 我 们 用 对 应 于 每 名 被 试 的 最 优 拟 合 参 数 取 值 
产生 3 组 模拟 数据 ， 共 产生 1821 (= 617 x 3) 组 模拟 
的 被 试 数据 。 之 后 ,我 们 分 别 使 用 WSLS 模型 、 
PVL2 模型 、VPP 模型 和 SSO 模型 ， 用 拟 合 观测 数 
据 一 样 的 方法 拟 合 这 些 模拟 数据 。 最 后 ,通过 分 析 
使 用 不 同 指标 ( 即 AICc 和 BIC) 时 模型 的 区 分 度 ， 我 
们 可 以 选取 出 更 为 合理 的 针对 观测 数据 的 模型 选 
择 指标 。 
2.2 ”结果 
2.2.1 ”模型 拟 合 和 比较 

表 2 展示 了 各 个 模型 拟 合 全 部 617 名 被 试 的 观 
测 数据 的 结果 。 当 以 _AICc 为 模型 选择 指标 时 ， 无 
论 是 就 群体 均值 还 是 个 体 结 果 而 言 ，SSO 模型 都 表 
MIE, 而 VPP、PVL2 和 WSLS 模型 的 表现 则 依 
次 变 差 。 当 以 BIC 为 模型 选择 指标 时 ， 就 群体 均值 
而 言 , PVL2 模型 的 表现 最 佳 , SSO 模型 次 之 。 从 个 
体 结果 上 看 , WSLS 模型 和 PVL2 模 型 表现 较 好 , 分 
别 在 30.79% 和 33.87% 的 被 试 数据 上 有 最 好 的 表现 ， 
而 VPP 和 SSO 模型 的 表现 则 基本 相当 。 无 论 采 用 
AICc 还 是 BIC 作为 指标 , SSO 模型 都 在 一 部 分 被 试 
的 数据 (AICc: 43.27%, BIC: 18.96%) 上 有 最 好 的 
表现 。 


表 2 研究 1 模型 比较 结果 
以 AICc 为 指标 以 BIC 为 指标 


7 a 
模型 。” 指标 均值 ATRN 指标 均值 OU 
(标准 差 ) 最 好 的 被 试 (标准 差 ) 最 好 的 被 试 

人 数 及 比例 和 人数 及 比例 


WSLS 236.27 (72.65) 42 (6.81%) 241.46 (72.76) 190 (30.79%) 
PVL2 225.25 (72.28) 114 (18.48%) 235.48 (72.49) 209 (33.87%) 
VPP 220.37 (70.25) 194 (31.44%) 240.13 (70.71) 101 (16.37%) 
SSO 219.60 (71.06) 267 (43.27%) 239.36 (71.48) 117 (18.96%) 


2.2.2 ”模型 复原 测试 

由 于 AICc 和 BIC 对 于 模型 复杂 度 的 惩罚 程度 
存在 差异 ， 相 比 于 BIC，AICc 倾 向 于 选择 参数 更 多 
的 模型 。 因此 ， 出 现 使 用 AICc 指标 时 ， 较 为 复杂 的 
VPP 和 SSO 模型 有 更 好 的 表现 并 不 奇怪 。 为 了 选 
择 更 合适 的 模型 选择 指标 , 我 们 进行 了 模型 复原 测 
试 。 表 3 和 表 4 展示 了 模型 复原 测试 的 结果 。 当 以 
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AICc 为 模型 选择 指标 时 ， 各 模型 有 较 好 的 区 分 度 。 
对 于 每 个 模型 产生 的 模拟 被 试 数据 ， 该 模型 本 号 都 
能 在 最 大 比例 的 个 体 模拟 数据 上 有 最 好 的 表现 。 而 
当 以 BIC 为 模型 选择 指标 时 ,对 于 每 个 模型 产生 的 
模拟 数据 ， 最 为 简单 的 WSLS 模型 都 能 在 最 大 比例 
的 个 体 模拟 数据 上 有 最 好 的 表现 ， 即 BIC 不 能 很 好 
地 对 WSLS 和 其 他 模型 进行 区 分 。 因 此 ,在 本 研究 
H, 相 比 于 BIC, 将 AICc 作为 模型 选择 指标 更 为 


合适 。 


表 3 研究 1 基于 AICC 的 模型 复原 测试 结果 


数据 产 数据 拟 合 模型 

生 模型 WSLS PVL2 VPP SSO 
WSLS 88.60% 3.67% 0.92% 6.81% 
PVL2 33.55% 46.14% 10.97% 9.35% 
VPP 14.37% 16.69% 59.97% 8.97% 
SSO 13.99% 7.73% 2.76% 75.53% 


注 : 表 中 的 每 一 行 代表 不 同 模型 在 某 个 模型 产生 的 模拟 被 
试 数 据 上 的 表现 情况 。 例 如 ， 第 一 行 代表 各 个 模型 拟 合 WSLS 
模型 产生 的 模拟 被 试 数据 时 的 表现 。 在 由 WSLS 模型 产生 的 模 
拟 被 试 数据 中 , WSLS 模型 在 88.60% 的 个 体 数 据 上 表现 最 佳 ， 
而 PVL2 模型 VPP 模型 和 SSO 模型 则 分 别 在 3.67% 、0.92% 
和 6.81% 的 个 体 数 据 上 表现 最 佳 。 


表 4 研究 1 基于 BIC 的 模型 复原 测试 结果 


作为 模型 选择 指标 时 ， 模 型 表现 的 相对 优 劣 有 所 差 
异 , 但 策略 转换 模型 都 能 在 一 定 比例 的 个 体 数据 上 
有 最 好 的 表现 。 模 型 复原 测试 的 结果 表明 , AICc 比 
BIC 更 适合 在 当前 人 研究 中 被 用 于 进行 模型 选择 ， 因 
为 相 比 于 使 用 BIC, 在 使 用 AICc 时 更 可 能 还 原 出 
正确 的 数据 产生 模型 。 当 以 AICc 作为 模型 选择 指 
标 时 ，SSO 模型 无 论 从 群体 还 是 个 体 水 平 都 要 优 于 
另外 三 个 模型 ,而且 策略 转换 模型 在 近 一 半 (43.27%) 
的 被 试 观测 数据 上 表现 最 佳 。 这 些 结 果 表 明 , 个 体 
在 完成 IGT 的 过 程 中 ,的确 有 和 较 大 可 能 会 发 生 决 策 
策略 的 转换 。 

如 前 所 述 , 经 验 累 积 或 者 疲倦 等 因素 可 能 是 造 
成 在 像 IGT 这 样 的 系列 决策 任务 中 发 生 策略 转换 
的 原因 。 当 任务 的 试 次 数 变 得 越 来 越 多 时 , 我 们 可 
以 合理 地 认为 ， 经 验 累 积 或 者 疲倦 这 样 的 因素 更 有 
可 能 发 生 作 用 , 因而 个 体 也 就 更 有 可 能 在 任务 过 程 
中 ,变换 决策 策略 。 因 此 ,作为 本 研究 主体 部 分 的 
补充 , 我 们 还 比较 了 包含 不 同 试 次 数 的 IGT 研究 中 
的 模型 表现 ， 以 便 进一步 考察 策略 转换 的 可 能 1 
在 本 研究 考察 的 617 名 被 试 中 , 有 15 人 完成 的 是 
95 试 次 的 IGT, 504 人 完成 的 是 100 试 次 的 IGT, 还 
有 98 人 完成 的 是 150 试 次 的 IGT。 表 5 展示 了 包 
含 不 同 试 次 数 的 IGT 数据 以 AICc 为 模型 选择 指标 
的 相应 结果 。 可 以 看 出 ， 随 着 试 次 数 的 上 升 , 无 论 


数据 产 数据 拟 合 模型 

生 模 型 WSLS PVL2 VPP SSO 
WSLS 99.57% 0.43% 0.00% 0.00% 
PVL2 51.43% 44.79% 3.62% 0.16% 
VPP 37.39% 32.63% 29.07% 0.92% 
SSO 42.63% 20.31% 0.05% 37.01% 


TE: 表 中 内 容 的 含义 同 表 3。 


2.3 讨论 

本 研究 提出 了 有 关 IGT 的 一 次 策略 转换 模型 ， 
并 针对 以 往 617 名 健康 被 试 的 数据 ， 比 较 了 此 模型 
和 假定 单一 策略 的 具有 代表 性 的 PVL2 模型 (强化 
学 习 策 略 ), WSLS 模型 (启发 式 策略 ) 以 及 VPP 模型 
(混合 策略 ) 的 数据 拟 合 表现 。 当 分 别 以 AICc 和 BIC 


是 从 AICc 均值 ， 还 是 从 模型 表现 最 好 的 被 试 比例 
来 看 , 策略 转换 模型 相 比 于 其 他 模型 的 优势 都 在 增 
IR, 这 一 点 在 模型 表现 最 好 的 个 体 被 试 比例 上 表现 
得 尤为 明显 ， 即 从 13.33% 上 升 到 了 53.06%。 

为 了 更 加 深入 地 了 解 策略 转换 的 具体 情况 ,我 
们 进一步 分 析 了 不 同 试 次 数 下 ,策略 转换 节点 ( 即 
sp ) 的 分 布 状况 ,具体 而 言 ， 针对 各 种 斌 次数 的 IGT 
任务 , 我 们 计算 了 SSO 模型 拟 合 得 最 好 的 个 体 数 
据 对 应 的 sp 参数 的 分 布 信息 。 当 总 试 次 数 为 95 
时 ， 估计 值 的 均值 为 48.5, 标准 差 为 37.48; 当 
总 试 次 数 为 100 时 ，sp 估计 值 的 均值 为 48.92， 标 
WEZH 19.47， 而 当 总 试 次 数 为 150 时 ，sp 估计 值 


表 5 研究 1 中 根据 试 次 数 分 组 的 模型 拟 合 和 比较 结果 


weeny AICc 均 值 (标准 差 ) 该 模型 表现 最 好 的 被 试 人 数 及 比例 
95 试 次 100 试 次 150 试 次 95 试 次 100 试 次 150 试 次 
WSLS 238.66 (35.45) 224.42 (56.54) 296.81 (111.01) 1 (6.67%) 36 (7.14%) 5 (5.10%) 
PVL2 223.20 (39.06) 215.21 (58.10) 277.19 (110.48) 5 (33.33%) 94 (18.65%) 15 (15.31%) 
VPP 222.84 (40.43) 210.29 (55.93) 271.84 (108.07) 7 (46.67%) 161 (31.94%) 26 (26.53%) 
SSO 227.14 (37.92) 210.14 (57.76) 267.10 (108.68) 2 (13.33%) 213 (42.26%) 52 (53.06%) 
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的 均值 为 81.42, 标准 差 为 36.03。 不 难 发 现 ， 随 着 
IGT 试 次 数 的 增多 , 发 生 策略 转换 的 平均 位 置 也 在 
后 移 。 针 对 每 种 转换 类 型 ( 即 从 强化 学 习 策 略 转化 
为 启发 式 策略 ，st=1, 或 者 从 启发 式 策略 转化 为 
强化 学 习 策略 ，st=2), 我 们 进一步 使 用 单 侧 
Mann-Whitney 检验 分 析 了 100 试 次 和 150 试 次 下 
的 平均 转换 节点 的 差异 (在 完成 95 试 次 IGT 的 被 试 
中 , 仅 有 2 人 的 数据 SSO 模型 拟 合 得 最 好 ， 故 此 处 
不 做 分 析 )。 结 果 发 现 ,无 论 是 先 使 用 强化 学 习 策 略 ， 
还 是 先 使 用 启发 式 策略 的 被 试 ， 当 需要 完成 150 isk 


试 次 的 IGT, 另 161 人 则 完成 了 200 试 次 的 IGT。 
招募 被 试 时 要 求 非 心理 学 专业 且 未 参加 过 IGT WF 
究 。 所 有 被 试 均 在 实验 前 填写 知情 同意 书 ， 并 自愿 
参与 实验 。 实 验 结束 后 ,被 试 会 得 到 基础 报酬 和 额 
外 奖励 ， 额外 奖励 的 数量 和 IGT 的 绩效 有 关 ， 绩 效 
越 高 ， 额 外 奖励 越 多 。 
3.1.2 ”实验 设计 与 流程 

本 实验 采用 单 因 素 被 试 间 设 计 ， 考 察 并 比较 不 
同 试 次 数 下 个 体 在 IGT 中 发 生 策略 转换 的 可 能 性 。 
本 实验 共 设 置 100 试 次 和 200 试 次 两 种 实验 条 件 ， 


次 IGT 时 ， 相 应 的 平均 转换 节点 , 均 显 著 晚 于 内需 
完成 100 试 次 IGT 时 的 平均 转换 节点 值 均 小 于 


前 者 是 大 多 数 IGT 研究 的 标准 设置 ， 而 后 者 则 可 以 
在 控制 实验 总 时 长 的 前 担 下 ， 有 效 地 拉 开 与 前 者 的 


0.001)。 ;之 所 以 会 出 现 这 一 状况 ,可 能 是 由 于 随 着 
IGT 试 次 数 的 增多 ， 有 更 高 比例 的 被 试 在 整个 任务 
过 程 中 发 和 后 了 策略 转换 ， 且 新 增 的 发 生 策略 转换 的 
被 试 的 转换 节点 较 晚 ,这 为 个 体 在 完成 IGT 过 程 中 
有 可 能 发 生 策略 转换 ， 且 随 着 试 次 数 的 增多 ， 被 试 
会 有 更 大 的 可 能 性 发 生 策略 转换 提供 了 进一步 的 
证 据 。 

需要 指出 的 是 ， 虽 然 上 述 分 析 支 持 IGT 中 可 能 
存在 策略 转换 , 但 这 些 分 析 所 考察 的 数据 出 自 不 同 
的 研究 , 在 任务 设置 的 细节 上 不 尽 相 同 ， 而 且 试 次 
数 的 范围 和 间距 不 尽 合 理 ,完成 不 同 试 次 数 IGT 的 
人 数 也 很 不 均衡 。 因 此 ， 以 上 分 析 结 果 只 能 被 认为 
是 为 支持 IGT 中 的 策略 转换 提供 了 有 限 的 证 据 。 在 
以 下 报告 的 研究 2 中 , 我 们 在 对 试 次 数 进行 更 为 合 
理 的 操纵 的 前 提 下 , 采用 相同 的 任务 设置 在 每 种 试 
次 数 下 收集 了 人 数 几 乎 相同 的 被 试 数据 以便 更 好 
地 检验 试 次 数 增加 会 提升 策略 转换 的 可 能 性 这 一 
关键 假设 。 


3 研究 2: 试 次 数 对 IGT 中 策略 转 
换 可 能 性 的 影响 


3.1 方法 
3.1.1 被 试 


本 研究 采用 实验 范式 操纵 IGT 的 试 次 数 ， 并 设 
置 了 100 试 次 和 200 试 次 两 个 实验 条 件 。 共 招募 321 
名 成 年 大 学 生 被 试 ( 男 性 134 人, 女性 187 人 ), 平均 
年 龄 20.54 岁 (SD = 2.41), FEA 160 人 完成 了 100 


3 我 们 也 使 用 单 侧 Mann-Whitney 检验 考察 了 不 同 转换 类 型 下 
的 转换 节点 差异 ,发 现 仅 在 100 试 次 条 件 下 两 种 转换 类 型 间 存 
在 显著 差异 ,在 后 续 的 研究 2 中 , 无 论 是 100 试 次 IGT 还 是 200 
试 次 IGT, 平均 转换 节点 在 不 同 转 换 类 型 闻 都 不 存在 显著 的 
差异 。 


距离 ， 以 实现 一 定 程 度 的 效应 量 。 

任务 开始 前 ,被 试 会 阅读 有 关 IGT 的 标准 化 介 
绍 ， 并 被 告知 拥有 2000 元 研究 货币 ( 即 初始 总 财 
富 )。 任 务 开始 后 ,被 试 会 看 到 分 别 位 于 屏幕 上 、 下 、 
左 、 右 侧 的 4 个 牌 堆 ， 并 可 以 通过 键盘 的 “上 ”、 
P, AE”, ARE, 选择 对 应 的 牌 堆 。 被 试 在 完 
成 任务 之 前 ， 并 不 知晓 所 需 完成 的 试 次 数 。 每 次 选 
择 完成 后 ， 屏 幕 中 央 将 呈现 当前 试 次 的 奖励 和 损失 ， 
以 及 更 新 之 后 的 总 财富 额 (如 图 1)。 设 置 以 上 下 左 
右 方式 呈现 牌 堆 ， 是 为 了 减少 传统 的 从 左 到 右 的 排 
布 方式 对 牌 扒 选择 产生 的 非 随机 的 影响 ,例如 在 开 
台阶 段 依 次 选择 A、B 、C、D 四 个 牌 堆 ， 以 及 在 后 
续 试 次 中 ， 相 继 选择 空间 上 明显 相 邻 的 牌 堆 。 此 外 ， 
本 研究 采用 和 表 1 所 示 相 同 的 支付 方案 ， 且 每 10 
次 选择 某 一 牌 堆 时 损失 出 现 的 试 次 位 置 也 是 随机 
的 。 实 验 程 序 使 用 Python3 及 PsychoPy 软件 编写 ， 
被 试 需要 在 电脑 的 PsychoPy 软件 上 完成 实验 。 


损失 : 0 元 


游戏 总 财富 额 : 1150 元 


图 1 研究 2 实验 界面 截图 


3.1.3 ”数据 分 析 

本 研究 采用 和 研究 1 相同 的 模型 拟 合 和 比较 技 
AR, 分 析 和 比较 了 3 个 单一 策略 模型 和 一 次 策略 转 
换 模型 在 拟 合 个 体 IGT 数据 时 的 表现 ,并 且 进 行 了 
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表 6 研究 2 模型 比较 结果 


ve AICc 均 值 (标准 差 ) 各 模型 表现 最 好 的 被 坛 人 数 及 比例 
100 试 次 200 试 次 100 试 次 200 试 次 
WSLS 221.29 (54.27) 413.04 (125.04) 17 (10.63%) 4 (2.48 %) 
PVL2 214.36 (56.19) 392.14 (123.53) 27 (16.88%) 15 (9.32%) 
VPP 212.66 (52.58) 383.47 (120.92) 36 (22.50%) 37 (22.98%) 
SSO 207.95 (54.46) 377.02 (120.76) 80 (50.00%) 105 (65.22%) 
表 7 研究 2 基于 AICC 的 模型 复原 测试 结果 
模型 WSLS PVL2 VPP SSO 
WSLS 90.83%/86.13% 2.29%/3.11% 1.04%/0.83% 5.83%/9.94% 
PVL2 38.54%/27.33% 44.17%/53.21% 3.13%/5.18% 14.17%/14.29% 
VPP 23.75%/13.66% 17.29%/12.63% 46.46%/63.77% 12.50%/9.94% 
SSO 15.21%/10.14% 5.21%/4.35% 2.29%/1.66% 77.29%/83.85% 


模型 复原 测试 。 此 外 ,使 用 独立 样本 比例 差异 Z 检 
验 , 分 析 试 次 数 对 于 IGT 中 发 生 策略 转换 的 可 能 性 
的 影响 。 
3.2 ”结果 
3.2.1 ”模型 分 析 和 比较 

因 模 型 复原 测试 表明 ,在 本 研究 中 使 用 AICc 
仍然 比 使 用 BIC 更 有 可 能 做 出 正确 的 模型 选择 ( 见 
下 文 )， 此 处 仅 报告 基于 AIC 的 结果 。 表 6 BMT 
以 AICc 为 标准 , 100 和 200 试 次 组 各 自 的 模型 比较 
结果 。 无 论 是 从 群体 均值 ， 还 是 从 个 体 结果 来 看 ， 
SSO 模型 在 两 种 试 次 数 条 件 下 都 表现 最 佳 。 而 且 ， 
无 论 是 针对 100 试 次 IGT 还 是 200 试 次 IGT, SSO 
模型 都 在 至 少 一 半 被 试 的 个 体 数 据 上 有 最 好 的 表 
现 。 此 外 ， 和 研究 1 一 样 , VPP、PVL2 和 WSLS 模 
型 的 表现 依次 变 差 。 独立 样本 比例 差异 Z 检验 的 结 
果 表 明 , 200 试 次 下 发 生 策略 转换 的 可 能 性 ( 即 SSO 模 
型 在 拟 合 个 体 观测 数据 时 表现 最 佳 的 比例 ，65.22%)， 
高 于 100 试 次 下 发 生 策略 转换 的 可 能 性 (530.00%， 
z=2.76， 单 侧 p=0.003， 比 例 差异 的 95% CI = [0.045， 
0.259], Cohen’s A = 0.31， 对 应 较 小 的 效应 量 )。 

和 在 研究 1 中 一 样 , 我们 还 分 析 了 两 种 试 次 数 
条 件 下 , SSO 模型 拟 合 最 优 的 那些 被 试 的 sp 参数 的 
估计 结果 。 当 IGT 包含 100 试 次 时 ，sp 估计 值 的 均 
值 为 47.03, 标准 差 为 20.39; 当 IGT 包含 200 试 次 
IN, sp 估计 值 的 均值 为 95.38, 标准 差 为 54.21。4 单 


a 


4 在 本 研究 以 及 研究 1 中 , SSO 模型 拟 合 最 优 的 被 试 的 sp EE 
估计 值 都 接近 于 允许 范围 的 中 间 值 。 造 成 这 一 结果 的 可 能 原 
是 ,发 生 策略 转换 的 个 体 的 策略 转换 节点 位 于 模型 允许 范围 
的 各 个 位 置 的 可 能 性 大 致 相当 ， 且 整体 分 布 呈 单 峰 形态 。 


才 W 


TE: 每 个 单元 格 中 的 前 一 个 数值 代表 100 试 次 组 的 结果 ,后 一 个 数值 代表 200 试 次 组 的 结果 。 


侧 Mann-Whitney 检验 结果 表明 , 无 论 在 哪 种 转换 
类 型 下 , 200 试 次 下 的 平均 转换 节点 均 显 著 晚 于 100 
试 次 下 的 平均 转换 节点 (p 值 均 小 于 0.001)。 
3.2.2 ”模型 复原 测试 

本 人 研究 使 用 每 个 模型 模拟 了 3x321 = 963 组 个 
体 被 试 数据 ， 并 使 用 4 个 模型 对 每 组 模拟 数据 进行 
了 拟 合 。 表 7 展示 了 100 试 次 组 和 200 试 次 组 基于 
AICc 的 模型 复原 测试 结果 。 不 论 是 在 100 试 次 还 
是 200 试 次 下 ,所 考察 的 每 个 模型 都 能 在 最 大 比例 
的 各 自 模型 产生 的 模拟 数据 上 有 最 好 的 表现 。 总体 
而 言 ， 试 次 数 为 200 时 数据 生成 模型 被 正确 复原 的 
比例 (71.74%)， 要 高 于 试 次 数 为 100 时 的 比例 
(64.69%, z=4.70, PEM p < 0.001， 比 例 差 异 的 95% 
CI = [0.041, 0.100], Cohen’s h = 0.15， 对 应 小 的 效 
应 量 )。 

表 8 展示 了 基于 BIC 的 模型 复原 测试 结果 。 可 
以 看 出 ， 和 研究 1 一 样 ， 当 使 用 BIC 进行 模型 选择 
时 ,几乎 在 所 有 情况 下 ,无 论 针对 哪个 模型 产生 的 
个 体 模拟 数据 ，WSLS 模型 都 能 有 最 好 的 表现 ， 即 
BIC 不 能 很 好 地 对 WSLS 和 其 他 模型 进行 区 分 。 只 
有 当 试 次 数 为 200 时 , PVL2 模型 和 SSO 模型 才能 
在 各 自 产生 的 模拟 数据 上 有 最 好 的 表现 。 总 体 而 言 ， 
试 次 数 为 200 时 数据 生成 模型 被 正确 复原 的 比例 
(59.06%), 要 高 于 试 次 数 为 100 时 的 比例 (49.17%， 
z= 6.16, 单 侧 p < 0.001， 比 例 差异 的 95% CI = 
[0.068, 0.130], Cohen’s h = 0.20， 对 应 小 的 效应 量 )。 
3.3 讨论 

本 研究 的 目的 在 于 考察 试 次 数 的 增加 是 否 会 
导致 被 试 在 IGT 中 更 有 可 能 发 生 策略 转换 。 结 果 表 
明 , 无 论 IGT 包含 标准 的 100 个 试 次 还 是 更 多 的 


表 8 研究 2 基于 BIC 的 模型 复原 测试 结果 


模型 WSLS PVL2 VPP SSO 
WSLS 100.00%/100.00% 0.00%/0.00% 0.00%/0.00% 0.00%/0.00% 
PVL2 59.58%/46.38% 39.79%/53.42% 0.00%/0.00% 0.63%/0.21% 
VPP 48.54%/35.20% 27.50%/34.16% 23.33%/29.81% 0.63%/0.83% 
sso 47.71%/32.30% 18.13%/14.70% 0.63%/0.00% 33.54%/53.00% 


TE: 表 中 内 容 的 含义 同 表 7。 


200 个 试 次 ， 和 研究 1 一 样 ， 策 略 转换 模型 都 在 至 
少 一 半 被 试 的 个 体 数 据 上 有 最 好 的 表现 。 更 为 重要 
的 是 ， 同 包含 100 个 试 次 的 IGT 相 比 ， 当 IGT 包含 
200 个 试 次 时 , 策略 转换 模型 在 更 高 比例 的 个 体 数 
据 上 表现 最 佳 。 这 意味 着 ， 当 试 次 数 为 200 IN, A 
们 更 有 可 能 在 IGT 中 发 生 策略 转换 。 这 一 结果 排除 
了 策略 转换 模型 能 够 在 部 分 被 试 的 数据 上 有 最 好 
的 表现 , 仅仅 是 由 模型 比较 结果 的 随机 性 所 致 这 一 
解释 ， 从 而 为 个 体 在 像 IGT 这 样 的 系列 决策 任务 中 
可 能 发 生 策略 转换 提供 了 进一步 的 支持 。 此 外 , 模 
型 复原 测试 的 结果 表明 , 与 BIC 相 比 , AIC 仍然 是 
更 有 可 能 做 出 正确 的 模型 选择 的 指标 。 因 此 ,本 研 
究 继 续 使 用 AICc 作为 模型 选择 和 策略 推断 的 依 
据 。 最 后 ,无论 是 采用 AICc 还 是 BIC 作为 模型 选 
择 指 标 , 200 试 次 下 的 模型 复原 表现 ， 都 要 优 于 100 
试 次 下 的 表现 。 这 与 更 大 的 数据 量 将 有 助 于 更 好 地 
区 分 不 同 模型 的 传统 看 法 是 一 致 的 。 


4 总 讨论 


系列 决策 任务 既 广 泛 存在 于 我 们 的 日 常生 活 
中 ,也 大 量 出 现在 有 关 决 策 策略 和 影响 因素 的 实证 
研究 之 中 。 例 如 ,为 了 招聘 各 种 岗位 的 职员 ， 人 力 
资源 部 门 的 员工 需要 频繁 地 在 求职 者 间 做 出 选择 ， 
而 像 IGT 这 样 的 需要 被 试 在 相同 的 任务 结构 下 重 
复 完 成 多 次 决策 的 实验 室 任务 也 比比 缘 是 。 以 往 有 
关系 列 决策 任务 下 的 决策 策略 的 研究 , 一般 假设 个 
体 在 所 有 试 次 中 都 使 用 相同 的 策略 。 之 所 以 要 求 进 
行 多 次 重复 决策 , 仅仅 是 为 了 给 推断 决策 策略 提供 
更 多 的 信息 。 但 是 , 在 这 样 的 决策 任务 中 ， 人 们 不 
仅 会 了 解 和 学 习 任 务 刺激 的 具体 特征 ,而 且 可 能 在 
更 高 的 水 平 上 ,学 习 和 相应 地 调整 他 们 的 决策 策 
略 。 对 于 后 一 种 学 习 的 充分 了 解 , 将 有 助 于 我 们 得 出 
有 关 策 略 选择 的 更 为 准确 的 推 关 ,并且 考 察 影响 策略 
选择 及 其 转换 的 因素 ,从 而 更 好 地 为 改善 决策 服务 。 

本 研究 以 IGT 为 对 象 ， 较 为 系统 地 探讨 了 人 们 
在 系列 决策 任务 中 发 生 策略 转换 的 可 能 性 。 结 果 表 


明 ， 人 们 不 仅 会 在 IGT 中 发 生 策略 转换 ， 而 且 这 一 
转换 的 可 能 性 ,还 会 随 着 任务 试 次 数 的 上 升 而 有 所 
提升 。 这 表明 , 在 通过 各 种 系列 决策 任务 探讨 个 体 
的 决策 策略 时 ， 需 要 充分 考虑 策略 转换 的 可 能 | 
尤其 是 在 任务 试 次 数 较 多 的 情况 下 。 具 体 而 言 ， 可 
以 参照 本 文 所 报告 的 方式 ， 开发 允许 策略 转换 的 计 
算 认 知 模型 ， 并 将 它们 和 假定 单一 策略 的 模型 进行 
比较 ,从 而 推断 个 体 是 否 发 生 了 策略 转换 ,以 及 在 
何 时 发 生 了 策略 转换 。 由 此 , 研究 者 有 望 对 个 体 在 
任务 不 同 阶段 的 策略 使 用 情况 有 更 加 准确 的 认识 ， 
后 续 基 于 不 同 阶段 的 模型 参数 估计 的 分 析 ,， 也 更 有 
可 能 产生 相对 准确 的 推断 。 
尽管 本 文 报告 的 研究 提供 了 有 关 个 体 在 IGT 
中 可 能 发 生 策略 转换 的 明确 证 据 ,， 但 这 些 研究 所 考 
虑 的 策略 转换 ， 仅 是 可 能 的 多 种 策略 转换 类 型 中 的 
一 部 分 。 具 体 而 言 ， 我 们 假定 在 整个 任务 过 程 中 ， 
个 体 只 可 能 发 生 一 次 在 强化 学 习 策略 和 启发 式 策 
略 之 间 的 转换 ， 而 且 这 种 转换 是 以 突变 方式 进行 
的 。 同 样 有 可 能 出 现 的 情况 是 , 个 体 在 任务 过 程 中 
发 生 了 多 次 策略 转换 ,或 者 策略 转换 是 以 渐进 的 方 
式 发 生 的 ， 即 在 相继 的 试 次 中 ， 从 主要 采取 强化 学 
习 策略 向 主要 使 用 启发 式 策略 过 渡 ， 或 者 反 向 而 
行 。 从 建 模 的 角度 ,前 一 种 可 能 性 需要 引入 多 个 转 
换 节 点 ,而 后 一 种 则 需要 借助 像 VPP 模型 这 样 的 
混合 模型 ， 并 假设 其 中 有 关 不 同 策略 的 加 权 系 数 
( 即 we ) 是 试 次 的 渐变 函数 。 就 分 析 技 术 而 言 , 实 
现 这 样 的 模型 都 更 有 挑战 性 , 但 是 并 非 完全 没有 可 
能 。 例 如 ,针对 多 属性 系列 决策 任务 , Lee 等 人 (2019， 
2021) 采 用 贝 叶 斯 方法 探索 了 允许 发 生 多 次 策略 转 
换 的 模型 ， 发现 有 部 分 被 试 的 数据 能 够 被 策略 转换 
模型 更 好 地 解释 ， 旦 有 少量 被 试 的 数据 支持 存在 多 
次 策略 转换 。 未 来 的 研究 可 以 参考 Lee 等 人 的 方式 ， 
探讨 IGT 或 者 其 他 重要 的 决策 任务 (例如 风险 和 跨 
期 选择 任务 ) 下 发 生 多 次 策略 转换 的 可 能 性 ， 还 可 
以 开发 策略 渐变 模型 ， 并 将 此 类 模型 和 ( 单 次 或 多 
次 ) 突 变 模 型 进行 比较 ， 从 而 加 深 对 于 策略 转换 的 
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多 种 可 能 性 的 认识 。 除 了 最 终 的 选择 , 与 任务 有 关 
的 其 他 数据 也 可 能 反映 了 人 们 的 决策 过 程 ,例如 决 
策反 应 时 和 有 眼 动 数据 等 。 Fang 等 人 (2023) 基 于 鼠标 
追踪 技术 获取 的 数据 ， 提出 了 用 于 多 属性 决策 任务 
的 机 需 学 习 策 略 识别 (Machine Learning Strategy 
Identification, MLSI) 方 法 。 这 种 通过 使 用 机 需 学 习 
算法 提取 决策 特征 并 进而 甄别 决策 策略 的 研究 方 
法 十 分 新 新， 未 来 可 以 在 有 关 策 略 转 换 的 研究 中 进 
一 步 推广 使 用 。 需 要 指出 的 是 , 就 核心 决策 策略 而 
A, 针对 多 属性 决策 的 模型 (例如 ，Take-the-Best 模 
型 ) 一 般 都 是 确定 性 模型 ， 而 针对 IGT 的 模型 则 一 
般 是 概率 性 模型 ,因此 后 者 在 数据 分 析 层 面 更 为 复 
杂 。 此 外 , IGT 和 多 属性 决策 任务 存在 一 些 重要 的 
区 别 。 例 如 ,前 者 的 每 次 决策 都 有 明确 的 反馈 ， 且 
所 做 的 选择 和 相应 结果 会 对 后 续 决 策 产生 影响 ， 因 
此 更 多 涉及 记忆 和 经 验 累 积 因 素 , 而 后 者 的 每 次 决 
策 则 是 相对 独立 的 ， 且 一 般 不 包含 反馈 信息 ， 因 而 
无 需 记 忆 和 经 验 的 参与 。 此 外 ,多 属性 决策 任务 一 
般 是 在 确定 信息 条 件 下 完成 的 ,而 IGT 则 涉及 更 为 
复杂 的 不 确定 信息 。 因 此 , 来 自 多 属性 决策 任务 和 
IGT 的 策略 转换 证 据 属 于 不 同类 型 任务 下 的 汇聚 证 
据 。 这 些 证 据 表 明 , 策略 转换 可 能 存在 于 性 质 不 同 
的 各 种 系列 决策 任务 之 中 。 

在 确认 了 系列 决策 任务 存在 策略 转换 的 可 能 
性 后 , 一 个 需要 进一步 探讨 的 关键 问题 是 ， 产生 策 
略 转换 的 条 件 是 什么 ,或 者 说 怎样 的 任务 因素 、 个 
体 因 素 或 者 两 者 的 交互 可 能 引发 策略 转换 。 例 如 ， 
当 任 务 难度 或 者 自身 的 抱负 水 平 较 高 时 ,个 体 可 能 
因为 现 有 策略 无 法 实现 目标 ， 而 选择 尝试 不 同 的 策 
MS. 由 此 可 以 推断 , 通过 增 大 任务 难度 (比如 要 求 在 
IGT 中 必须 使 得 财富 水 平 有 所 增长 ) 或 者 提升 个 体 
的 抱负 水 平 的 方式 ， 也许 能 够 引发 更 多 的 策略 转 
换 。 此 外 , 是 否 存 在 优势 策略 也 是 影响 策略 转换 的 
一 个 可 能 因素 。 当 个 体 在 尝试 了 不 同 策略 并 且 发 现 
了 优势 策略 之 后 ， 其 策略 转换 的 倾向 可 能 会 有 所 减 
弱 。 反 之 ,如 果 多 种 策略 下 的 任务 表现 大 致 相当 ， 
那么 发 生 策略 转换 的 可 能 性 则 将 取决 于 个 体 希 望 
尽 可 能 有 更 好 的 表现 的 意愿 ， 以 及 探索 不 同 策略 的 
动机 程度 。 对 于 策略 转换 诱发 因素 的 考察 , 将 进 一 
步 提升 我 们 对 于 决策 策略 及 其 转换 的 认识 。 
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Abstract 


Much research has been devoted to studying decision strategies in various tasks. Such research usually 


involved a sequence of decision trials under the same task structure to provide sufficient information for inferring 


the underlying decision strategies. By assuming each individual adopted a single decision strategy across all 
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decision trials and comparing corresponding computational cognitive models in terms of their performances in 
fitting empirical data, such studies have revealed multiple possible decision strategies for many major decision 
tasks. One common drawback of such research, however, was overlooking the possibility that individuals switched 
their strategies along the sequence of decisions. This might lead to inappropriate conclusions regarding the 
decision strategies underlying specific decision tasks or misleading inferences of potential cognitive and affective 
differences between normal and different clinical populations based on parameter estimates from models assuming 
single strategies. 

To address this critical issue, two studies were conducted to examine the possibility of strategy switching in 
the Iowa Gambling Task (IGT), an experience-based decision task with a sequence of trials aimed at mimicking 
real-world decisions under uncertainty. By developing a computational cognitive model that allowed for 
switches between reinforcement learning strategies and heuristic strategies and comparing its performance with 
those of single-strategy models, Study 1 showed that data from about half of the 617 healthy participants in 10 
previous studies were better fitted by the strategy-switching model than three single-strategy models that performed 
well in previous research, that is, the WSLS, PVL2, and VPP models as exemplar models assuming heuristic, 
reinforcement learning, and mixed strategies, respectively. This result provided clear support for the possibility 
of strategy switching in the IGT. 

Since strategy switching might occur with accumulating experience or fatigue and an increasing number of 
trials is likely to facilitate such changes, 321 participants were recruited in Study 2 to further examine whether a 
larger number of trials would contribute to more strategy switching in the IGT. Specifically, 160 participants 
performed a 100-trial IGT, whereas the other 161 participants performed a 200-trial IGT under otherwise the 
same task structure. It was found that data from a larger proportion of individual participants were best fitted by 
the strategy-switching model when the IGT involved 200 trials rather than standard 100 trials. This result 
provided further evidence for strategy switching in the task. 

Overall, the current results suggest that strategy switching is likely to occur in a sequence of decisions under 
the same task structure. Consequently, in order to obtain proper understanding of the decision strategies for 
various decision tasks, it is necessary to consider seriously the possibility of strategy switching, especially for a 
long sequence of decisions. For a more refined understanding of psychological mechanisms underlying sequences 
of decisions, future research might further investigate various forms of strategy switching such as gradual 
instead of abrupt switches and task and individual factors that trigger such switches. 

Keywords Decision task with a sequence of trials, The Iowa Gambling Task, Strategy switching, Computational 
cognitive modeling, Reinforcement learning and heuristic strategies 


